@马创新等:《先秦诸家学派的相关系数与特征词研究》

研究背景与目的

研究方法与过程

核心思路

语料库 (Corpus)

计算步骤

  1. 词频与排序:

    • 统计各文献词频,按频次降序排列
    • 使用“并列法”处理同频词,即同频词等级相同。
  2. 等级等值化 (Normalization):

    • 问题: 各文献词型总数不同,原始等级不具可比性。
    • 方法: 为每部文献设定“等级系数”,进行归一化,得到“转化等级”。
      • 等级系数 = 100 / 文献最大词型等级
  3. 学派内等级确定:

    • 对于同学派内的多部文献(如儒家、道家),其共有词的“最终等级”为其各自“转化等级”的平均值
  4. 相关度计算 (Spearman's Rank Correlation):

    • 原理: 计算两两学派间高频共有词的等级序列相关性。
    • 公式:R=16D2n(n21)
      • D: 每一对词型的等级差。
      • n: 样本数(词型数量)。
      • 我们用ARs来表示“以学派A中特定数量词型为样本”与学派B中全部词型比较所得到的相关系数,对于在学派A中出现而学派B中没有出现的词型,就假定该词型在学派B中的最终等级为101。
      • 学派A与B的相关度用ABRs来表示,ABRs等于ARs与BRs的均值,即:ABRs=(ARs+BRs)/2。
  5. 特征词计算 (Rank Difference Method):

    • 原理: 计算某词在特定学派中的等级,与它在其他所有对比学派中平均等级的差值
    • 公式:Di=j=1nDijn
      • Di: 词语在特定学派中的特征系数。
      • Dij: 该词在“对比学派 j”与“特定学派”中的最终等级之差。
      • n: 对比学派的数量。
    • 系数解读:
      • 正值: 表明该词在本学派中重要性显著更高
      • 负值/零: 表明该词在本学派中重要性更低或相当。

主要研究发现

学派间相关度

各学派核心特征词

结论